智能论文笔记

Learning from human perception to improve automatic speaker verification in style-mismatched conditions

Amber Afshan , Abeer Alwan

分类：机器学习

2022-06-28

我们先前的实验表明，人类和机器似乎采用了不同的方法来歧视说话者歧视，尤其是在说话风格可变性的情况下。实验检查了阅读与对话演讲。听众专注于特定于说话者的特质，同时“一起告诉说话者”，以及“告诉说话者分开”时共享声学空间的相对距离。但是，无论目标或非目标试验如何，自动扬声器验证（ASV）系统使用相同的损失函数。为了在风格变异性的存在下提高ASV性能，从人类感知中学到的见解被用来设计一种新的训练损失功能，我们称为“ CLLRCE损失”。 CLLRCE损失既使用说话者特异性的特质，又使用扬声器之间的相对声学距离来训练ASV系统。当使用UCLA扬声器可变性数据库时，在X-Vector和条件设置中，CLLCE损失使EER显着相对改善1-66％，而MindCF分别与1-31％和1-56％相比，相比之下X矢量基线。使用涉及不同的对话语音任务的SITW评估任务，拟议的损失与自我发项式调节结合，导致EER的显着相对改善2-5％，而MindCF则比基线高6-12％。在SITW案例中，绩效的改善仅与调理保持一致。

translated by 谷歌翻译

Attention-based conditioning methods using variable frame rate for style-robust speaker verification

Amber Afshan , Abeer Alwan

分类：机器学习

2022-06-28

我们提出了一种提取说话者嵌入的方法，这些嵌入者对文本独立的说话者验证中的口语风格变化很强。通常，嵌入提取的扬声器包括训练DNN进行扬声器分类以及使用瓶颈功能作为扬声器表示。这样的网络具有一个合并层，可以通过在所有话语框架上计算统计数据，以相等的权重来转换框架级别为话语级特征。但是，自动锻炼的嵌入执行加权池，使其重量与在扬声器分类任务中框架的重要性相对应。熵可以捕获由于说话样式变化而导致的声学变化。因此，提出了一个基于熵的变量帧速率向量作为自我发项层的外部条件向量，以向网络提供可以解决样式效应的信息。这项工作探讨了五种不同的调理方法。最好的调理方法，与门控的串联，在12/23任务中为X-Vector基线提供了统计学上的显着改进，并且在使用UCLA扬声器可变性数据库时，与11/23任务中的基线相同。在9/23任务中，它也明显胜过自我注意力，而在1/23的任务中也更糟。该方法还显示了SITW的多扬声器方案的显着改善。

translated by 谷歌翻译

ParaColorizer: Realistic Image Colorization using Parallel Generative Networks

Himanshu Kumar , Abeer Banerjee , Sumeet Saurav , Sanjay Singh

分类：计算机视觉

2022-08-17

灰度图像着色是AI在信息恢复中的引人入胜的应用。该问题的天生性质不良的性质使其更具挑战性，因为输出可能是多模式的。目前正在使用的基于学习的方法为直接情况产生可接受的结果，但在没有明确的图形分离的情况下通常无法恢复上下文信息。同样，由于在完整图像特征上训练的单个模型不足以学习各种数据模式，因此图像遭受了颜色出血和饱和背景。为了解决这些问题，我们提出了一个基于GAN的配色框架。在我们的方法中，每个量身定制的GAN管道都会使前景（使用对象级特征）或背景（使用全图像功能）着色。前景管道采用了一个具有自我注意事项的残留无UNET作为其发电机，使用了全图像功能和可可数据集中的相应对象级特征训练。背景管道依赖于该位置数据集的全图像功能和其他培训示例。我们设计了一个基于密集的融合网络，以通过基于特征的融合来获得最终的有色图像。我们显示了通常用于评估多模式问题（例如图像着色）并使用多个感知指标对我们的框架进行广泛的绩效评估的非感知评估指标的缺点。我们的方法的表现优于大多数基于学习的方法，并且产生的结果与最新的方法相当。此外，我们进行了运行时分析，并获得了每个图像的平均推理时间24ms。

translated by 谷歌翻译

Convolutional Ensembling based Few-Shot Defect Detection Technique

Soumyajit Karmakar , Abeer Banerjee , Sanjay Singh

分类：计算机视觉 | 人工智能

2022-08-05

在过去的几年中，几乎没有学习的领域取得了重大改进。这种学习范式已经显示出对挑战性检测的挑战性问题的令人鼓舞的结果，在这种情况下，一般任务是应对重型阶级失衡。我们的论文提出了一种新的方法来进行几次分类，我们采用了多种预训练的卷积模型的知识基础，这些卷积模型是我们提出的几杆框架的骨干。我们的框架使用一种新颖的结合技术来提高准确性，同时大大降低了总参数计数，从而为实时实现铺平了道路。我们使用电源线缺陷检测数据集执行广泛的超参数搜索，并获得5-way 5-Shot任务的精度为92.30％。在不进一步调整的情况下，我们使用现有的最先进方法评估我们的模型，并胜过它们。

translated by 谷歌翻译

A Novel Enhanced Convolution Neural Network with Extreme Learning Machine: Facial Emotional Recognition in Psychology Practices

Nitesh Banskota , Abeer Alsadoon , P. W. C. Prasad , Ahmed Dawoud , Tarik A. Rashid , Omar Hisham Alsadoon

分类：计算机视觉 | 机器学习 | 神经与进化计算

2022-08-05

面部情感识别是识别心理学用来诊断患者的重要工具之一。面部和面部情感识别是机器学习卓越的领域。由于不同的环境，例如照明条件，姿势变化，偏航运动和遮挡，面部情绪识别是对数字图像处理的开放挑战。深度学习方法已显示出图像识别的显着改善。但是，准确性和时间仍然需要改进。这项研究旨在在训练期间提高面部情绪识别的准确性，并使用Extreme Learning Machine（CNNeelm）增强的修改后的卷积神经网络减少处理时间。该系统需要（CNNeelm）提高培训期间图像注册的准确性。此外，该系统通过拟议的CNNeelm模型认识到六种面部情绪快乐，悲伤，厌恶，恐惧，惊喜和中立。研究表明，与经过改进的随机梯度下降（SGD）技术相比，总体面部情绪识别精度的提高了2％。借助Extreme Learning Machine（ELM）分类器，处理时间从113ms中降至65ms，可以从20fps的视频剪辑中平滑地对每个帧进行分类。使用预先训练的InceptionV3模型，建议使用JAFFE，CK+和FER2013表达数据集训练所提出的CNNeelm模型。仿真结果显示出准确性和处理时间的显着改善，使该模型适合视频分析过程。此外，该研究解决了处理面部图像所需的大量处理时间的问题。

translated by 谷歌翻译

Using Fitness Dependent Optimizer for Training Multi-layer Perceptron

Dosti Kh. Abbas , Tarik A. Rashid , Karmand H. Abdallaand Nebojsa Bacanin , Abeer Alsadoon

分类：神经与进化计算

2022-01-03

本研究提出了一种新颖的训练算法，具体取决于最近提出的健身依赖优化优化器（FDO）。使用一些标准测量，在勘探和开发阶段进行了验证和性能的验证和性能。这影响了我们的目标来衡量算法在训练多层训练中的算法的性能（MLP）。本研究结合了FDO与MLP（CodeName FDO-MLP）优化权重和偏见以预测学生的结果。除了增加他们的成就外，本研究可以根据学生的教育背景改善学习系统。通过与背部传播算法（BP）和一些具有级联MLP（FDO-CMLP），灰狼优化器（GWO）的FDO与MLP（GWO-MLP）相结合的一些进化模型，肯定了这种方法的实验结果改性GWO与MLP（MgWo-MLP），带级联MLP（GWO-CMLP）的GWO，以及带级联MLP的改性GWO（MgWo-CMLP）。定性和定量结果证明，使用FDO作为培训师的建议方法可以在会聚速度和本地最佳避免方面使用不同培训师的其他方法。所提出的FDO-MLP方法分类为0.97的速率。

translated by 谷歌翻译

Deep learning for identification and face, gender, expression recognition under constraints

Ahmad B. Hassanat , Abeer Albustanji , Ahmad S. Tarawneh , Malek Alrashidi , Hani Alharbi , Mohammed Alanazi , Mansoor Alghamdi , Ibrahim S Alkhazi , V. B. Surya Prasath

分类：计算机视觉

2021-11-02

基于全面的生物识别是一个广泛的研究区域。然而，仅使用部分可见的面，例如在遮盖的人的情况下，是一个具有挑战性的任务。在这项工作中使用深卷积神经网络（CNN）来提取来自遮盖者面部图像的特征。我们发现，第六和第七完全连接的层，FC6和FC7分别在VGG19网络的结构中提供了鲁棒特征，其中这两层包含4096个功能。这项工作的主要目标是测试基于深度学习的自动化计算机系统的能力，不仅要识别人，还要对眼睛微笑等性别，年龄和面部表达的认可。我们的实验结果表明，我们为所有任务获得了高精度。最佳记录的准确度值高达99.95％，用于识别人员，99.9％，年龄识别的99.9％，面部表情（眼睛微笑）认可为80.9％。

translated by 谷歌翻译